1
하드웨어의 한계: 메모리 및 자원 제약
AI032Lesson 5
00:00

현대 고성능 컴퓨팅은 근본적인 "메모리 벽": 계산 처리량(FLOPS)의 급속한 증가가 소폭 증가하는 전체 메모리 대역폭을 훨씬 뛰어넘었으며, 이 차이는 거대한 다중코어 배열을 데이터를 기다리는 '기아 상태'의 프로세서로 만든다.

1. 대역폭 격차

GPU는 초당 수조 회의 연산을 수행할 수 있지만, DRAM으로의 물리적 경로는 핀 밀도와 전력 요구 사항에 의해 제한된다. 메모리가 병렬성의 제한 요소로 작용한다 스레드 수를 늘릴수록 각 스레드당 대역폭이 감소하여 하드웨어가 공백 상태에 머무르는 스탠드 사이클이 발생함을 의미한다.

2. 주방 비유

최첨단 주방(그래픽 처리장치 코어)이 시간당 1,000식을 조리할 수 있다고 상상해 보자. 그러나 재료는 5마일 떨어진 창고(전체 메모리)에 있으며, 배달용 스쿠터(메모리 버스)는 단 하나뿐이다. 셰프를 얼마나 고용하더라도 출력은 스쿠터의 속도로 제한된다.

3. 아키텍처 대비

표준 다중코어 CPU 시스템 몇 개의 무거운 스레드에 대한 지연을 숨기기 위해 거대한 캐시를 사용한다. 하지만 거대한 병렬 아키텍처는 동시 요청의 지속적인 '교통 정체'에 직면한다. 자원 제약 레지스터 및 공유 메모리 수준의 자원 제약은 하드웨어가 과부하 상태에 이르기 전까지 달성 가능한 최대 병렬 수준(점유율)을 결정한다.

산술 강도 (FLOPs/바이트)성능 (GFLOPS)메모리 제한계산 제한 (정점)
main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>